Embedding APIのコンテキストウィンドウの意義
このAPIは8192トークン対応ということでアピールしていた。
https://scrapbox.io/files/663fac3c513ee0001df6372c.png
入力テキストをチャンクに分割し、各チャンクを個別に埋め込むことしかない。
コンテキストウィンドウ長いことで、より包括的に長いテキストを処理でき、より豊かで文脈を意識した埋め込みが可能になる。 この機能は、AIアプリケーションにおいて、より豊かな意味とより高度な推論を実現するために不可欠。
まとめ
コンテキストウィンドウは、LLMがテキストの意味を深く理解し、高品質なembeddingを生成するために重要な役割を果たす。
単語の意味の曖昧性の解消:
例えば、「bank」という単語は「銀行」と「土手」の両方の意味を持つ。
コンテキストウィンドウに「money」や「loan」といった単語が含まれていれば、LLMは「bank」を「銀行」の意味で理解し、より適切なembeddingを生成できる。
文章全体の文脈理解:
コンテキストウィンドウは、単語単体ではなく、文章全体の文脈をLLMに理解させる。
これにより、より正確で文脈に即したembeddingを生成することができる。
長距離依存関係の把握:
文章中に離れた位置にある単語同士の関係性を理解するのに役立つ。
例えば、「He」という代名詞が指す対象を特定するために、コンテキストウィンドウの情報が不可欠